查看原文
其他

连Siri都熬了14年,语音智能难在哪,AI硬件为什么突然火了?| 对话声智科技陈孝良

陈孝良 李丰 峰瑞资本
2024-12-01

此刻,或许你已经踏上了国庆长假的旅途。假如你在国外,当你戴上AI耳机,它不仅能帮你翻译菜单,还能教你实时用外语问路……你会为这样一款耳机买单么?
战时潜艇反声呐收音机,到风靡一时的民用消费品:Walkman、CD 播放器、 MP3、iPod、Siri、智能音箱,再到今天的AI手机、AI耳机……声学技术一直以来都是消费电子产品发展的关键点之一。
如今,随着 AI 技术的快速发展,声音正成为人机界面交互的新前沿,在聆听和对话之间,重塑我们和世界的互动方式。

不久前,丰叔邀请声智科技创始人陈孝良博士聊了聊。陈孝良博士曾任职于中国科学院声学研究所,是声学领域的研究员,于 2016 年创办了声智科技。声智科技一直在声学+ AI 交叉领域探索,在智能音箱红极一时的年代,大部分我们熟知的智能音箱品牌都搭载了声智的远场声学交互技术

但是,在相当长的时间里,智能音箱给人留下的印象是“不智能”。AI 大模型的出现,终于解决了智能音箱“不智能”的问题,声音交互不再是鸡肋

陈孝良一直坚信 AI 的效果验证最终大规模落地,肯定是在消费领域。2024年,声智科技推出了自己的AI耳机。让用户最先感知到AI功力的,是耳机内置的实时翻译和转写功能。所以,开头我们提到的场景,已经在变成现实。

iPhone 16(苹果首款AI手机)发布后,陈孝良博士和丰叔就声学发展的历史沿革,以及AI 硬件创业的现状和未来,展开了深入对话,他们讨论的话题包括:
  • 潜艇声纳鱼雷军事相关技术,为什么必须用声音信号?
  • 为什么我们唱歌时,自己听到的声音和录音机里播出的不一样?
  • 最初服务于国防和军工领域的声学技术,是如何一步步转向消费电子产品的?
  • 语音消息为起点的微信是如何崛起,并成为中国排名第一的即时通讯服务应用软件?
  • Siri 早在2010年就推出了,熬了接近14年,一直不温不火,为什么却成为苹果首款AI手机发布会的核心看点
  • 你家里是不是也有一个落了灰的智能音箱,智能音箱为什么“不智能”?这背后有哪些技术挑战和用户体验难题?
  • GPT-4o 可以为语音识别带来哪些新的变化和可能性?
  • 穿戴式耳机走过了什么样的发展历程?AirPods耳机 vs. 骨传导耳机 vs. 耳夹式耳机
  • AI 将如何赋能耳机
  • 在中国,助听器的渗透率很低,这个局面会改变吗?助听器如何赢得新一代老年人用户吗?

希望能带来不一样的角度和思考。欢迎移步小宇宙APP / Apple Podcasts(苹果播客) / 喜马拉雅APP,搜索并订阅「高能量」收听这期节目。


互动福利


你有戴耳机的习惯吗,你有哪些需求是市面上的耳机能够很好地满足的?欢迎在评论区留言,我们将随机挑选2位读者,送出声智科技的AI耳机



/ 01 / 
声学虽小众,却是每一次科技突破的关键点


李丰:今天的对话嘉宾是陈孝良博士,他创业前是中国科学院声学研究所的研究人员。2016 年,他从科学院体系出来创业,在创业的 8 年里,他经历了与声学人工智能相关的多次浪潮。这次我请陈博士来分享他对当前 AI 与硬件结合的新创业方向的看法,以及这一次热潮对未来我们能体验到的科技消费品会产生怎样的影响。

陈孝良:非常高兴今天能够和大家聊聊AI+声学+硬件创业相关话题。声学,在一个全球范围内,都是比较小众的学科,过去主要服务于国防和军工领域,比如潜艇声纳和鱼雷等相关技术。

李丰:插入一个小知识,在军事上,声学的一个关键应用就是如何用声纳更好地探测,以及如何避免被别人用声纳探测到。

陈孝良:为什么必须用声音信号?因为水下环境中,声波是唯一能够保持信号长距离传输,且不快速衰减的通信和传感手段。

光学信号和电磁波在空气中是主要手段,但在水中它们的信号由于水体的吸收和散射会快速衰减。这就是为什么当你潜水的时候,你会发现,在10 米以下的水域,基本上漆黑一片,因为光会快速衰减。

消费领域,我们也用到了许多声学技术,包括录播客用到的麦克风、音响、在电影院听到的音效、听歌的 MP3 格式,等等。这些都是声学领域的典型应用。

但是,这些底层算法(比如编解码)大多来自海外。我们也尝试过自主研发一些编解码算法,但因为这背后涉及到全球统一的标准,所以推广难度很大。

回顾上世纪八九十年代日本经济快速发展,大家可能还记得那时候兴起的 WalkmanCD 唱机

直到后来,苹果推出了iPod。消费声学硬件一直在不断发展。

再往前推,现在海外的一些声学品牌,基本上都是二战期间生产或维修收音机的企业,比如西门子、飞利浦、Bose。彼时,航母、潜艇等行业的发展,带动了声学在国防军工领域的应用。

再往前推,是 19 世纪电话的发明,这也是一个非常重要的科技进步。

李丰:这是第二次工业革命的重要一环。

陈孝良:所以说,声学是许多科技发展取得突破的关键点之一。

AI 的兴起,某种意义上也是从声音开始的。深度学习也曾率先在声音上验证它的效果。2011 年,苹果在发布会上正式推出了 Siri,这是第一个推向市场的语音助手,让大家一下子感受到了深度学习带来的算法变化。这次发布会极大地推动了声学算法的升级

/ 02 / 
最早我们用微信,像是在用对讲机


李丰:你刚讲到Siri的重要性,其实如果我们回过头来看移动互联网,2010 年以来几乎所有成功的中国移动互联网创业,比如美团、抖音、快手、微信,都是在此之前难以想象的商业模式。

这些新崛起的移动互联网巨头有一些共性

首先是交互形态的改变。我们把信息输入从PC的物理键盘,改成在智能手机上的触摸屏上进行拖拽、滑动,也就是可以不依赖键盘。这种交互形态的改变,带来了很多商业模式,比如今日头条和抖音的大数据推荐。

其次是新传感器带来新数据。因为有了高清摄像头,跟图片和视频相关的移动应用开始流行,比如抖音快手。因为在智能手机中加入了 GPS,于是有了位置数据,随之产生了与位置相关的移动应用,包括滴滴打车、外卖服务。

微信的崛起也与之有紧密联系。

虽然现在微信大家可能打字比较多,但我们可以回忆一下,微信最初推出时是以语音为主的。那个时候,很多用户把微信当对讲机来用。

这是因为,在声音输入上,当我们告别诺基亚手机,切换到以苹果手机为代表的智能手机,麦克风从简单的收音设备变成了麦克风阵列,声音质量和信噪比都提高了。即使在嘈杂背景中,我们也能清楚地接收语音信息。

此外,当时的网络也能很好地支持语音信息的传输,并且语音还原效果也不错,用户体验也算得上特别——当时智能手机变成了全屏,但屏幕很小,没有物理键盘,虚拟键盘也不太好用,语音通讯比打字的效率高很多。

陈孝良:微信诞生时,用到的声学技术还比较简单,主要是录音和播放,不涉及复杂的 AI 技术。后来,微信加入了一些语音识别技术,AI 技术逐渐得到应用。

值得一提的是,微信语音的普及,离不开底层编解码技术的提升,即大幅降低了语音传输的流量需求,同时保证了清晰度。要知道早年的语音通话,时常会出现网络卡顿、断断续续的问题。

李丰:我们刚才讲了人类与智能设备的交互方式。键盘打字是需要后天学习的技能,没有人天生就会打字,但滑动和拖拽这样的操作是完全天然的,小朋友拿起 iPad 就能玩。而摄像头像是人眼的延伸,语音交流也是人类自然的输入输出方式。

所以在智能手机的发展中,最大的变化是从有物理键盘转向了无物理键盘。这让用户开始使用新的传感器和交互方式,比如声音、位置信息、高清摄像头,滑动和拖拽等,形成了新的交互方式。

陈孝良:其实从 Siri 诞生开始,业界就达成了一个共识,下一代的交互是基于声音的多模态交互。但是,为什么十多年过去了,声音交互仍然没有成为主流?这是因为声学相关的底层技术还没有达到非常成熟的商业化阶段。

声音涉及到很多问题,包括不同的语音特征、多语言处理、语义理解等,这些都是现在大模型正在解决的问题。然而,声学计算已经很久没有新的进展了。

举个例子,收音机的发明基于早期的电子管技术,它主要通过模拟电路来处理声音信号。后来,Walkman 和 CD 唱机等设备出现,声学技术逐渐从模拟信号处理转向数字化,但仍是基于信号处理的思路。

后来,苹果推出音乐播放器 iPod,并凭借这款产品再次崛起。我觉得,乔布斯对声学技术是有执念的。到 2009 年左右,人们已经开始尝试使用深度学习的方法,来处理语音问题。不过,那时还没有深入到语言或声学领域,只是用于处理语音。

不再依赖传统的信号处理方法——从模拟信号转向数字信号,再进一步到深度学习时代,相当于说声学计算发展到了第三个时代

深度学习非常擅长处理传统的信号处理方法没法解决的非线性问题,尽管其在精确度上不如传统方法。在语音识别中,它很难达到 100% 的准确率,但往往并不需要100%准确。每个人的语音特征都有差异。人类在听声音时也会出错,尤其在没有听清楚时,会习惯通过联想来补全内容。好在大模型可以补足这一块。在语音识别领域,机器已经能够超越人类。

乔布斯推行的声音交互链条里,有两个关键部分:声学和 NLP(Natural Language Processing,自然语言处理)。在 2010 年左右,语音处理技术还仅限于在手机里使用。

2014 年底,亚马逊发布了 Echo 智能音箱,推动了声音交互的发展。亚马逊从 2011 年开始研发 Echo,当时为了解决语音的识别问题,引入了麦克风阵列技术。

单个麦克风只能接收到声音信号的振幅,通过多个麦克风的组合,我们还可以捕捉到相位信息。利用时间差计算相位差,我们可以更精确地确定声源的位置,进一步提升语音识别的准确性声音信号的质量

/ 03 / 
距离、延迟与噪声,三个常见的声学问题如何解决?


李丰:很多听众可能不太了解声学技术。当你讲到麦克风阵列,其实涉及到几个常见的场景和问题。

第一种是像我们现在录播客,大家离麦克风非常近,收音效果很理想,这是一种理想环境。

另外一种是开会时,大家离桌上的麦克风远近不同,坐在边上的人说话可能很清楚,但远处的人说话就听不清,有时声音断断续续。

此外,如果在室外,手机还会有很多背景噪声,比如地铁行驶、风声等。

那么,麦克风阵列在解决这些问题时,现在和未来的解决方案是什么?

陈孝良:人与设备的交互是很自然的,比如人和手机交互一个手臂的距离,这叫“近场”交互。未来当智能机器人普及,我们不可能像用手机一样,去追着它按按钮或按触摸屏,所以,必须解决远场交互的问题。

智能音箱使用阵列技术也是为了优先解决远场问题。在 2016 年,我们的主要任务就是去掉距离这个边界条件,保证在远距离时仍能清晰听到声音。

在军事中的声纳对抗中,这是最核心的问题。海洋环境非常复杂,不可能有理想的边界条件。但是在消费场景中,往往有成本限制。我们最初用六个麦克风阵列,后来降到三个,现在用一个也能达到效果,这表明技术也在不断进步。

会议场景则是个典型的多人场景。多人场景里有一个现象叫“鸡尾酒会效应”:人类可以在嘈杂的环境中,通过专注某些声音,来忽略其他声音。除了外界噪声,还有自噪声的问题。

这是因为人类听声音的方式有两种,一种是空气传导,另一种是骨骼传导。我们听到的自己的声音其实是这两种方式的结合。你说话时不可避免会带动骨骼的震动,而这些震动会通过骨传导传递到你的耳朵,这就是自噪声。AI硬件包括机器人就必须抑制好自噪声问题

李丰:这真是个冷知识。

陈孝良:所以说,人类在唱歌时,自己听到的声音和回放的声音,或者说和别人听到的声音是不一样的。唱歌时很多人会跑调,是因为他们没有准确地听到自己的声音。而为了精确控制音调,歌手通常会佩戴返听耳机,不断调整唱歌节奏。这就对声学系统的延迟提出了非常高的要求。

继续说边界条件,声音在空气中和固体中传播的速度是不同的。声音在空气中的传播速度约为 345 米/秒,而声音在钢铁中的传播速度是在空气的十多倍。假如敲击暖气片,声音立即传遍整个楼层。如果声音延迟了、错位了,本来应该抵消的声音反而加剧了,就会变成噪声。

所以,延迟是一个很大的技术挑战。就像卫星定位依赖于精确的时间同步,时间一旦错了,精度就会下降。声学也有类似的要求,第二个边界条件就是延迟。

声学处理与语音识别有很大不同。在声学处理时,延迟必须控制在人类可接受的范围内。一般来说,人类发出一个单词的时间大约是 200 到 300 毫秒,而我们对声音的混响、回声感知则在 80 到 100 毫秒。但敏感的人对延迟的感知最低能够达到 30 多毫秒。因此,声音的处理必须把延迟压缩到 30 毫秒以内

我们处理语音,会将它分为非常小的帧,每帧最长一般只有 10 毫秒——非常片段化的数据,并且必须实时预测和处理

在智能音箱中,使用麦克风阵列时,我们主要解决了两个问题:第一个是解决远场问题,第二个是解决延迟问题。我们要确保对话服务的延迟在 1.5 秒左右,比如说用户发出命令后,音箱开始播放音乐的时间不能超过 2 秒,否则用户就会感到明显的延迟,影响体验。

李丰:所以通过声学控制的方式,是否可以加上自然语言部分提前处理,而不是等到后续?

陈孝良:不能提前加入。2016 年,我们所有的阵列里要加上十多种声学算法,它主要是为了降低第三个边界条件:噪声

另外,端点检测也非常重要。它在整个对话交互过程中延迟是最大的,如果控制不好,延迟可能会达到一到两秒,严重影响后续的用户体验。

李丰:端点检测的概念,跟编辑播客音频时处理“气口”是一样的道理吗?

陈孝良:对。类似于你说话时,每个停顿都要被检测到。有些人说话很快,我需要加上端点检测,确保能够正确地分割。因为声学处理的分割,必须给后续的语音和语言处理留出空间,如果前面的处理不准确,后续的语音和语言处理就都会出错。

所以,在阵列处理中,其实要解决很多边界条件的问题,承担的工作非常多,这也是为什么我们要找到一个新的载体,因为手机当时的算力不足以支撑这些复杂的处理。正因为这样,我们才需要开发一个小型声学芯片

同时,我们还需要降低成本。Echo 当时使用的是非常高端的数字信号处理器——TI DSP芯片,我们后来把所有的算法移到 ARM 架构上,从麦克风直接接入芯片,智能音箱的价格因此降到了 200 元左右小米的智能音箱也是在那个时候成为爆款的。

/ 04 / 
早年的智能音箱,为什么不智能?现在技术进步了吗?


李丰:智能音箱在 2016 到 2018 年特别火,对你们来说,最终实现了哪些目标?

陈孝良:我觉得实现了三个目标,也有一个目标未能实现。

第一个是,我们解决了复杂场景下的声学问题,成功让智能音箱脱离手臂距离的束缚,成为真正的远场交互设备。

第二个是,通过使用阵列和声学结构,我们构建了完整的 AI 声学处理架构,从声学处理到语音识别、语言处理,再到内容服务和 TTS(Text-to-Speech,文本转语音)合成,整个链条被打通了,为后续的智能设备迭代奠定了基础。

同时,我们提高了语音识别的精度。在复杂场景下,我们对于远场语音识别的精度基本上能够达到 85% 以上,已经足够用来理解和执行用户的指令。

第三个是,在将多个算法组合在一起后,我们成功将延迟控制在用户可以接受的范围内,保证了精度、延迟和距离三者的平衡。

李丰:这些技术当中有多少是和你们相关的?

陈孝良:包括前面提到的所有声学算法,和后面的唤醒算法。当年,由我们提供技术支持的智能音箱,在一年内,卖出了两三千万套

但是,有一个问题我们未能完全解决,就是当时 NLP 的处理还不够成熟。很多人说智能音箱“不够智能”,那个时候确实有这个问题。在智能音箱火爆之后,从 2019 年开始,我们花了很多精力去提升 NLP 技术。

李丰:我稍微总结一下。智能手机中的声学技术发展,使得像微信这样的高清语音通话应用得以实现,特别是像对讲机模式的语音通话。但由于手机本身的硬件限制,亚马逊从 2011 年开始寻找新的载体,最终在 2014 年到 2019 年之间,促成了智能音箱的兴起。

由于更大的空间更高的算力智能音箱的声学性能得到了提升。然而,尽管硬件方面已经做得很好了,在那个时期,智能音箱的 NLP 能力和交互能力仍然存在一些难题。

陈孝良:2010 年到 2015 年,深度学习带来了语音技术的飞跃,像苹果的 Siri、谷歌的 Assistant、微软的 Cortana 等都逐渐崛起。不过,它们在手机上的语音识别精度不高,而且不够智能,有点鸡肋

2015 年到 2020 年,麦克风阵列技术解决了关键的声学问题,尤其是在复杂的场景中的应用。但在当时,语言处理技术并没有显著提升。虽然数据积累了很多,但如何高效地处理和使用这些数据仍然是个难题。

结果即使到现在,智能音箱依然是全球用户触达最广泛的 AI 设备

2020 年之后的技术和之前 10 年已经有很大不同,尤其是大模型的出现,现在我们看到了一些新的可穿戴设备的机会,苹果也开始推出 AI 手机,这是因为语言技术和 AI 的结合更加成熟了。

/ 05 / 
GPT-4o时代,语音交互将迎来更大的机会


李丰:在 AI 和声学相关的领域,大家对 GPT-4o 反应热烈,尤其是在语音交互方面。我想从你的角度来聊一聊 GPT-4o 和其后的发展。

陈孝良:接下来非常重要的一步,是将声学与大模型结合,并落地到设备中。GPT-4o 目前可以基于手机进行语音和语言展示,对声学要求相对较低。大模型在对话中的表现,已经比智能音箱时代好了很多,用户体验达到了可用水平。

但是,语音交互依然面临挑战,特别是在自然对话中,现在的智能音箱仍然是“一对一”的交互方式:你说完一句,它听完后再给出回应。但在多人聊天的场景中,语音需要被切分开来,分辨出谁在说话,以及不同发言者之间的上下文联系。

这就依赖于声纹技术,快速识别出到底有几个人在说话,谁说了什么。否则,如果没有准确的上下文,大模型就可能误解整段对话内容。声纹技术一直没有被广泛商用,但它在解决这些问题中扮演着重要角色。

李丰:这听起来像是指纹识别一样。

陈孝良:对。特别是在复杂对话场景中,声纹起关键作用。一旦技术成熟,再结合之前的积累,复杂场景中的交互体验将会变得非常好,届时你会感觉到,它不仅能够理解单个人的发言,还能够真正理解多个不同人的对话内容。

李丰语言大模型基本上涉及两个场景,一个是写作,一个是语音交互。到了 GPT-4o 阶段,我们会看到更多“说”和“听”这类交互形式。

AI 智能硬件在过去半年里突然火热起来,包括智能眼镜、AI耳机,以及很多可以语音交互的陪伴式设备,比如在玩具上加入语音功能。未来,也许可以通过语音来做面向老年人的陪伴与状态监测类设备。

GPT-4o 带来了输入输出形态的改变,你们在这方面做了哪些尝试?

陈孝良:我认为GPT-4o可以跟Siri类比,GPT-4o就是下一代的 Siri。Siri从2010年苹果发布以来,熬了接近14年,现在终于迎来一次重大升级。苹果的 AI 手机就是 Siri 升级到 GPT-4o 后的结果。Siri 从原来的“听不清、听不懂”,逐步进化到如今能够识别多人对话,并且能够理解这些对话,是依靠大语言模型来实现的。

其实苹果开始将 GPT-4o 和搜索功能结合,表明语音和语言大模型的结合已经相对成熟,可以商用。GPT-4o 是语音和大模型结合的关键节点,这一次的技术升级很快会被应用到各种新的智能设备中,如 PC、耳机、眼镜等。接下来,随着更多设备的加入,再加上声学的提升,整个 AI 设备市场将会迎来一次爆发式的增长。

李丰:因为声音是基于语言的自然交互,语言技术部分成熟后,交互方式的转变将越来越依赖语音。

陈孝良:是的,如果你想让大模型得到更好的应用,或者让硬件发挥其优势,这两者肯定要结合在一起。

/ 06 / 
穿戴式耳机的发展与迭代


李丰:所以你们基于这种认知,加上过去的积累,推出了一款新的 AI 耳机?

陈孝良:是的,它在很短时间内就成了爆款。我们原以为一个月能销售 5 万台、全年销售 60 万台就已经很不错了,但实际情况远超预期。我们也一直在补充产能。

李丰:消费者的购买热情超过了你们的备货量。具体来说,这款耳机在不同平台上销量如何?

陈孝良:我们目前还只在抖音上预售一上线就爆单了,而且是抖音平台定义的爆单。目前我们耳机在抖音的自然流量中基本都排在前十,甚至是第一名。每周的加购数量也在翻倍增长,这个节奏让我回想起当年智能音箱的爆发

李丰:在抖音上能够卖到第一名是很厉害的,因为抖音几乎是最卷的卖货市场了。你觉得这款耳机成为抖音爆款的主要原因是什么?

陈孝良主要是因为AI。很多用户想知道 AI 到底能做什么,但他们不清楚 AI 可以怎么帮他们,我们的AI耳机加了翻译功能,让用户可以直观地体验AI耳机的能力。

比如出国交流,去一带一路沿线的小语种国家,翻译这个需求就很明确。翻译功能的市场教育成本很低,用户买了耳机后,就可以立即体验到 AI 的功能。

李丰:相当于买了个耳机,还顺便得到了一个翻译机。

陈孝良:对。第二个原因是大模型的应用。虽然大模型在很多场景下有其局限性,比如需要提示词,还存在“幻觉”问题,但是我们针对这些问题做了一些优化,帮助用户更好地使用 AI。

李丰:你们在基座模型上做了哪些适配?

陈孝良:我们的基座模型参数不大,采用了混合专家模型的架构,每个专家模型专注于特定类型的任务或数据。这个基座模型特别适合对话场景,它生成的内容非常言简意赅,通常是短对话,快速帮助用户解决问题。短对话还有另一个好处,因为AI要把翻译完的话读出来,太长了用户还得听半天,而简短的回答可以减少用户等待时间,使交流更加流畅。

所以,现在消费市场整体低迷,很难刺激用户更换设备。加入 AI 之后,情况完全不同了。AI 激发了用户的消费需求,他们愿意尝试新的技术与产品。所以,消费需求并不是不存在,而是需要一个新的触发点来激发

李丰:接下来我们聊聊便携式耳机的发展。2019 年苹果的 AirPods 耳机经过了一些迭代后变得非常受欢迎。

陈孝良TWS 耳机,也就是我们常说的真无线耳机

李丰:是的,以前主流的耳机都是有线的,或者笨重的。TWS 耳机问世之后,大家开始习惯长时间佩戴无线耳机。这也是培养市场的一个过程。

陈孝良:相当于把耳机的渗透率拉上去了。

李丰:接着,又因为疫情,大家在家中待久了以后,户外活动尤其是运动场景增多,骨传导耳机变得流行。

骨传导耳机的特点和优势在于,你在户外运动时,不影响对环境的收音,比如车辆鸣笛。但它的音质相对没那么好,而且,运动过程中如果出汗,耳机还会有“呲啦呲啦”的干扰声音。

总体而言,今天的耳机市场已经相对成熟,人们习惯了长时间佩戴无线耳机,而且室内室外不同的使用场景都有相应的产品。你们的耳机,既不是完全入耳的,也不是完全外置的,而是采用了耳夹式的设计,这是怎么考虑的?

陈孝良:这也是我们对硬件形态的一次创新

李丰:你们这款耳机卖多少钱?

陈孝良:现在的定价是 399 元,但在预售期间优惠价是 199 元,和之前的智能音箱定价差不多。

李丰:这个定价非常巧妙,凑巧命中了一个“消费规律”:中国消费者对 200 元以内的新型电子产品的接受度很高,这意味着,如果你定价在 200 元以下,大家愿意为了新奇的体验,容忍它的一些小缺点。如果产品质量不错,就会超出他们的预期。而在美国,类似的价格区间大概是 300 美元左右,相当于 2000 元人民币左右。

我推荐一些不太了解你们的朋友买了你们的耳机,大家的总体反馈是超出预期。首先,他们觉得包装很炫酷,做工也很好。此外,耳夹式的设计结合了入耳和骨传导的优点,既能听到外界声音,又不会被太多干扰,而且收音效果好,这些基础功能已经超过了199块的预期。等他们再用到 AI 功能时,才意识到耳机居然还能有这个功能,就会觉得物超所值。

这个产品估计老年人也会喜欢。因为人到了一定年纪后,看东西会比较累,听东西对他们来说是更容易的方式。而且老年人喜欢溜达,尤其是在户外活动时,比如散步或跑步,他们更依赖听觉。

陈孝良:是的,原本我们以为这些电子设备主要是学生群体购买,但实际上,很多老年人也有很大的需求,他们也希望了解和使用 AI,这也是我们没有预料到的。我们有计划推出专为老年人设计的耳机型号,最近也会发布。

/ 07 / 
顶级航空耳机贵在哪?下一代 AI 耳机会长什么样?

李丰:你们未来会推出更高端的耳机吗?售价最贵的顶级耳机通常贵在哪里?

陈孝良:我们也在研发更顶级的耳机,比如类似飞行员使用的航空耳机。它对声学硬件和算法的要求都非常高,哪怕在炮火连天的场景下,仍能保持舒适的听觉体验。在国外,这样的顶级耳机的价格要在 1 万美元以上。

李丰:这种耳机应该不能完全无线吧?是不是要总是连着电源?

陈孝良:早期的版本需要电源连接,但现在的技术进步了,像 AirPods 一样使用四五个小时也没问题。

李丰:这种耳机肯定是全包裹式的吧?

陈孝良:是的,不过现在也有开发半开放式耳机。未来随着技术迭代,这类耳机会应用于飞行员低空开发场景

李丰:很多人坐飞机时使用降噪耳机,比如 Bose。

陈孝良:那是比较成熟的降噪耳机,主要是抑制外部的稳态噪声。

李丰:现在的青少年几乎全都戴上耳机,目的之一就是为了不让家长跟他们说话。就像我们小时候,戴上 Walkman ,就可以沉浸在自己的世界里。所以,如果耳机的屏蔽效果极佳,收音效果也非常好,他们就会听得更多。

陈孝良:这个真的有可能像 Walkman 一样变得普及。

李丰:在未来的研发中,你希望下一款针对大众的耳机在 AI 功能上承载哪些新特点呢?

陈孝良:现在有两个主要的方向。
第一个是在当前价格约 200 元左右的耳机中,我们希望实现三个功能点。第一是实时翻译,我们目前升级到 66种语言的互译,以及 8 种语言的实时同声传译;第二是面向商务人群,优化多人语音实时转写功能;第三是基于大模型的对话生成和应用

第二个大方向是耳机与 AI 的深度融合,这是我们接下来要重点突破的领域。我们曾经成功让智能音箱脱离手机独立运行,现在,我们计划让耳机也能够在完全独立于手机的情况下,提供更丰富的 AI 功能

李丰:大家在国外问路或者点菜,用这个耳机是不是可以实时翻译和对话了?

陈孝良:这些正是我们想要实现的。

李丰:那我给你设一个有挑战的场景,假如年轻人去酒吧,在那种极度嘈杂的环境下,AI耳机能帮他听清楚对方说的外语,再给他生成合适的回应,甚至教他怎么用外语回应。这在未来能实现吗?

陈孝良:丰叔提到的这种复杂场景我们也在探索。我们在做用户测试时发现,凌晨时段用户活跃度非常高翻译功能的需求很大,比如韩语、乌克兰语等语言在系统中的活跃度很高。

李丰:如果有人现在买了你们的耳机,未来你们做的产品迭代与升级,也会推送给现有用户吗?

陈孝良:是的。目前购买耳机,我们会赠送一年的会员卡,在会员有效期内,用户可以享受持续迭代的功能和性能。

/ 08 / 
新老年人的消费诉求:别让人看出我老了

李丰:助听器为什么这么难做?它属于偏社会公益、有高社会价值的产品。
陈孝良:做好助听器有几个核心挑战。

首先每个人的听力损失不同,音高音低的感受即响度也有差异,助听器需要大幅放大声音,这比普通耳机的要求更高,它必须具备足够的能力来处理这种高增益的放大

其次,声音成倍数地放大后,不能所有声音都被放大。它还要精准地放大用户关心的声音,同时加上降噪功能,因为当噪声过大时,会对使用者的心理健康造成严重影响。

再次,助听器的电力消耗很大,如何控制功耗是另一个关键问题。

此外,许多医疗器械厂商生产的助听器,虽然功能强大,但一看就是医疗设备,配戴不便,使用体验也不好。

李丰:大部分老年人害怕别人看出他们老了,像助听器这种直接暴露老年身份的产品,他们是不喜欢的。

陈孝良:所以我们的目标是把助听器设计得像耳机一样时尚。老年人戴上它,看起来就像戴普通耳机。我们计划发布一款面向重度听损人群的AI助听器出厂就自带 AI 功能

我国的耳聋人士数量超过 2000 万听力有损失的人群达两亿,然而,很多人宁愿听不清,也不佩戴助听器。除了有些助听器不太美观,也有人对使用助听器有一定的偏见,不愿意戴。另一个问题是,很多老年人的需求并没有被认真倾听

要想在国内大幅提升助听器的渗透率,面临着很大的挑战。美国助听器的渗透率大概是 35%,而中国不到 5%。这导致国内市场被国外品牌,尤其是中高端品牌占据。不过正因为渗透率低,国内品牌有价格优势,我们正在缩小市场差距。

李丰:如果做得像耳机,而且时尚,会有更多老年人愿意使用。举个例子,大概一两年前,消费市场上开始流行双焦镜,在同一片镜片上可以实现看远处和近处的功能。这类产品在新一代“70 后”新老年人中非常受欢迎。

现在的新老年人最不喜欢的,就是用明显是老年人标志的物品。一换上老花镜,大家就知道你老了。像双焦镜那样,不需要切换眼镜,就能既能看清近处的东西,也能看清远处的东西,新中年人就会很喜欢。因为这种设计不仅满足了他们的实际需求,还帮助他们和自己期望的身份认同保持一致。听力设备最终也会走这个方向。

/ 09 / 
往前看,往后看:语音终会成为交互的新入口

李丰:回过头来看,你讲到Siri是14年磨一剑。作为一家创业公司,你们从技术集成、硬件演进,到软件算法的融合,终于将软硬算法连成一体,再加上大模型或者AI技术的应用,做出了今天的爆款耳机。你会怎么总结这 8 年过程中的曲折?
陈孝良:这 8 年,我们正好赶上了很多重要的事件。

首先,我们抓住了技术红利。起初 Siri 从手机上起步,后来语音交互从手机转向了音箱等智能设备。当时,一个关键技术是要解决声学问题。我们抓住了这个机会,但技术发展并不是一蹴而就的,它需要经过漫长的打磨。比如数据积累不是一天两天就能完成的,数学认知分析和大模型的发展,都离不开数据的积累。如果没有互联网,大模型不可能发展

我们经历了漫长的煎熬,做了很多技术路线的探索和实验,大多以失败告终。但是我们有坚定的信念,要触达消费者。一开始,我们是和合作伙伴一起来触达消费者——我们的智能语音解决方案是绝大多数国内智能音箱品牌的标配。所以我们对消费者还是有一些理解。

后来,AI 大模型的出现,终于解决了智能音箱“不智能”的问题,使得声音交互不再是鸡肋,可以真正帮助用户解决问题。所以说,目前技术层面起码达到了可用的水平。我们一直也很期待能够通过自己的品牌来直接触达消费者,所以做了AI耳机

从抓住红利、经历煎熬,到技术成熟、产品爆发, 有很多是我们没有料到的。创业也总是会遇到挑战,但我坚信,AI 的最终大规模落地肯定是在消费领域。苹果发布的 AI 手机是个很好的例子。它看起来变化不大,但实际上里面有很多AI相关的布局。

此外,丰叔提到的很多观点,我们也在思考和验证。比如,结合我国制造的优势和科技创新,再加上对消费需求的理解,做好产品设计,有机会做出新物种
我一直认为,声学交互肯定是未来非常重要的交互方式,我们也会继续在 AI 与硬件结合的方向去探索,让消费者可以感受到AI的魅力AI带来的效率提升

李丰:就像那句老话,“人生没有白走的路,每一步都算数”。希望声智科技的耳机继续大卖、爆卖。像这样跨语言的,有很大社会价值的产品,应该更多地去国际市场上卖

往后看,你讲得非常有道理。首先,就像在上一轮电子产品的革新中,智能手机的演进,把触摸变成新的交互方式,同样地,语言模型的发展与演进,也让语音成为一种新的输入输出方式,一个重要的入口。我对这一点是确信的。

其次,就像你提到的,随着耳机的普及,更多 AI 功能得以在耳机上实现。同样值得期待的,是耳机成为新的交互入口

对陈博士而言,这段历程就像从潜艇的反声呐技术到智能音箱,最终走向了 AI 爆款耳机。祝愿声智公司能够克服更多的挑战,继续成长。


互动福利


你有戴耳机的习惯吗,你有哪些需求是市面上的耳机不能够很好地满足的?欢迎在评论区留言,我们将随机挑选2位读者,送出声智科技的AI耳机。

祝假期愉快!


▲ 具身智能 vs. 运动科技:一个让机器像人,一个把人变成机器?| 峰瑞报告

▲ 通往具身智能之路 | 峰瑞报告

▲ 对话清华教授陈文光:如果大模型不再拼“大”?

▲ 李丰对话连文昭:大模型的想象与泡沫,机器人的「不可能三角」与未来

▲ 李丰对话逐际动力创始人张巍:人形?机器人?

 李丰对话季宇:理解英伟达,解构英伟达,挑战‍英伟达


星标峰瑞资本微信公众号
一手商业思考及时送达

继续滑动看下一个
峰瑞资本
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存